草庐IT

Java Quartz 作业持久化

全部标签

java - 是否可以使用 hadoop 2.5.2 在 oozie 4.1.0 中运行 map reduce 作业

我是oozie的新手,可以在oozie4.1.0和hadoop2.5.2中运行mapreduce作业吗???请多指教! 最佳答案 应该是内存问题吧。在yarn-site.xml中设置以下属性并尝试运行作业,yarn.nodemanager.resource.memory-mb20960 yarn.scheduler.minimum-allocation-mb512yarn.scheduler.maximum-allocation-mb2048 关于java-是否可以使用hadoop2.5

azure - hdinsight pig 作业提交 502 错误

我在将pig作业提交到hdinsight集群时收到502错误。关于如何修复集群的任何想法?上次出现此错误时,我删除了集群并重新创建了它,想找到一种更好的方法来修复该错误。这是我得到的错误:Microsoft.WindowsAzure.Management.HDInsight.Framework.Core.Library.WebRequest.HttpLayerException:Requestfailedwithcode:BadGatewayContent:502-Webserverreceivedaninvalidresponsewhileactingasagatewayorprox

spring - 在 hadoop 2.x 中从 spring 运行一个 distcp 作业

我一直在我的项目中使用springdatahadoop,并且能够在hadoop1.x中运行distcp作业。最近我们升级到hadoop2.x,为此我将spring-data-hadoop升级到2.0.4。大多数东西仍在工作,但我遇到了distcp的一些问题。似乎springdatahadoop正在这样调用distcpClasscl=org.apache.hadoop.tools.DistCp.class;ClassargClass=ClassUtils.resolveClassName("org.apache.hadoop.tools.DistCp$Arguments",cl.getC

hadoop - 链接时 Spark 流作业失败

我在Hadoop集群上运行链式的几个SparkStreaming作业(一个在前一个作业的输出文件夹中寻找输入),使用HDFS,在Yarn集群模式下运行。job1-->readsfromfolderAoutputstofolderA'job2-->readsfromfolderA'outputstofolderBjob3-->readsfromfolderBoutputstofolderC...当独立运行作业时,它们工作得很好。但是当他们都在等待输入时,我在文件夹A中放置了一个文件,job1将其状态从运行更改为接受到失败。我在使用本地FS时无法重现此错误,只有在集群上运行时(使用HDFS

java - Map Reduce 作业从 Windows 提交到 Linux 时失败(Cent OS)

从Windows向Linux提交map-reduce作业时出现以下错误。容器ID:container_1422288303092_0045_02_000001Exitcode:1Stacktrace:ExitCodeExceptionexitCode=1:atorg.apache.hadoop.util.Shell.runCommand(Shell.java:538)atorg.apache.hadoop.util.Shell.run(Shell.java:455)atorg.apache.hadoop.util.Shell$ShellCommandExecutor.execute(S

bash - 遇到 IOException 运行导入作业 : java. io.IOException:javac 返回的错误

我正在尝试使用JAVA运行一个简单的sqoop导入程序。我的程序:Stringdriver="com.vertica.Driver";Configurationconfig=newConfiguration();config.addResource(newPath("/../../../mapred-site.xml"));config.addResource(newPath("/../../../core-site.xml"));config.addResource(newPath("/../../../hdfs-site.xml"));SqoopOptionsoptions=new

hadoop - 我应该使用 LSF 还是实现我自己的作业调度程序?

我们在公司内部做一些文件处理\计算简单地说,我们有一份工作或任务涉及读取一个包含超过十亿条记录的巨大文件,解析文件并进行一些清理并将清理后的数据写入另一个文件。我们有数百个这样的工作,它们不断地被创建、提交、运行。每个作业处理自己的文件,因此我们不必担心并发问题。为此,我们构建了自己的调度系统(MainFrame和Java的组合)。我们目前的吞吐量约为每小时4000万条记录。为了改善这一点(并提供更多的容错能力),我们正在评估IBM的LSF以帮助我们进行调度和创造工作。你们中有没有人觉得使用LSF可能是解决这个问题的过度杀伤力?我可以考虑使用AKKA中的参与者模型实现并围绕它编写我自己

python - 在远程服务器中执行 Hadoop 作业并从 python webservice 获取结果

我有一个打包在jar文件中的Hadoop作业,我可以使用命令行在服务器中执行该作业,并使用命令行将结果存储在服务器的hdfs中。现在,我需要在Python(Tornado)中创建一个Web服务,该服务必须执行Hadoop作业并获取结果以将其呈现给用户。Web服务托管在其他服务器上。我在google上搜索了很多关于使用python脚本从服务器外部调用作业的信息,但不幸的是没有答案。有人对此有解决方案吗?谢谢 最佳答案 一个选项是在您的网络服务服务器中安装hadoop的二进制文件,使用与在您的hadoop集群中相同的配置。您将需要它才能

maven - 使用 Local Runner 在独立模式下运行 Hadoop 2.4.0 作业的单元测试

在使用以前版本的Hadoop时,我通常会为整个作业(映射器和缩减器)构建junit测试,并通过调用maven或直接从IDE本身运行测试。系统上的任何地方都没有安装hadoop。我使用以下属性来确保使用本地进程内运行器:config.set("mapred.job.tracker","local");config.set("fs.default.name","file:///test-fs");这些测试运行成功。我升级到较新版本的Hadoop(2.4.0)以利用新的API。我希望能够像以前一样用我的单元做同样的事情。我现在使用的属性是:config.set("fs.default.nam

hadoop - 如何使用 hue-oozie 设计 distcp 作业

我正在尝试在hueoozie浏览器中设置distcp作业。不确定在哪里提供的参数是什么?hadoopdistcphdfs://nn1:8020/source/firsthdfs://nn1:8020/source/second哪个xml应该是job.xml以及参数值是什么? 最佳答案 Hue自带例子,你看过DisCo的吗?(在您的安装或demo.gethue.com中)。请注意,新编辑器(Hue3.8+)中的Distcp操作更易于使用。 关于hadoop-如何使用hue-oozie设计d